<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>停用词的优缺点 | Elasticsearch: 权威指南 | Elastic</title>
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
</head>
<body>
<div class="main-container">
    <section id="content">
        
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原文地址: <a href="https://www.elastic.co/guide/cn/elasticsearch/guide/current/pros-cons-stopwords.html" rel="nofollow">https://www.elastic.co/guide/cn/elasticsearch/guide/current/pros-cons-stopwords.html</a>, 版权归 www.elastic.co 所有<br/>
                            英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/guide/current/pros-cons-stopwords.html" rel="nofollow">https://www.elastic.co/guide/en/elasticsearch/guide/current/pros-cons-stopwords.html</a>
                            </div>
                        <!-- start body -->
                  <div class="page_header">
<b>请注意:</b><br>本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch: 权威指南</a></span>
»
<span class="breadcrumb-link"><a href="languages.html">处理人类语言</a></span>
»
<span class="breadcrumb-link"><a href="stopwords.html">停用词: 性能与精度</a></span>
»
<span class="breadcrumb-node">停用词的优缺点</span>
</div>
<div class="navheader">
<span class="prev">
<a href="stopwords.html">« 停用词: 性能与精度</a>
</span>
<span class="next">
<a href="using-stopwords.html">使用停用词 »</a>
</span>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="pros-cons-stopwords"></a>停用词的优缺点<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/240_Stopwords/10_Intro.asciidoc">edit</a>
</h2>
</div></div></div>
<p>现在我们拥有更大的磁盘空间，更多内存，并且还有更好的压缩算法。
将之前的 33 个常见词从索引中移除，每百万文档只能节省 4MB 空间。 所以使用停用词减少索引大小不再是一个有效的理由。
(不过这种说法还有一点需要注意，我们将在 <a class="xref" href="stopwords-phrases.html" title="停用词与短语查询">停用词与短语查询</a> 讨论。)</p>
<p>在此基础上，将这些词从索引里移除，会降低某种类型的搜索能力。将前面所列的那些单词移除会让我们难以完成以下事情：</p>
<div class="ulist itemizedlist">
<ul class="itemizedlist">
<li class="listitem">
区分 <code class="literal">happy</code> 和 <code class="literal">not happy</code>。
</li>
<li class="listitem">
搜索乐队名称 <code class="literal">The The</code>。
</li>
<li class="listitem">
查找莎士比亚的名句 “<code class="literal">To be, or not to be</code>” （生存还是毁灭）。
</li>
<li class="listitem">
使用挪威的国家代码: <code class="literal">no</code>。
</li>
</ul>
</div>
<p>移除停用词的最主要好处是性能，假设我们在一个有上百万文档的索引中搜索单词 <code class="literal">fox</code>。或许 <code class="literal">fox</code> 只在其中 20 个文档中出现，也就是说 Elasticsearch 需要计算 20 个文档的相关度评分<code class="literal">_score</code>从而返回前10个文档。现在我们把搜索条件改为 <code class="literal">the OR fox</code>，几乎所有的文件都包含 <code class="literal">the</code> 这个词，也就是说 Elasticsearch 需要为所有一百万文档计算评分 <code class="literal">_score</code>。 由此可见第二个查询肯定没有第一个的结果好。</p>
<p>幸运的是，我们有技术可以让常用词能被搜索到，同时还可以保持良好的性能。首先我们一块学习如何使用停用词。</p>
</div>
<div class="navfooter">
<span class="prev">
<a href="stopwords.html">« 停用词: 性能与精度</a>
</span>
<span class="next">
<a href="using-stopwords.html">使用停用词 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>